<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>词项的分别管理 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/common-terms.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/common-terms.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/common-terms.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/common-terms.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="languages.html">处理人类语言</a></span>
»
<span class="breadcrumb-link"><a href="stopwords.html">停用词: 性能与精度</a></span>
»
<span class="breadcrumb-node">高低频词:分而治之 (原翻译: 词项的分别管理)</span>
</div>
<div class="navheader">
<span class="prev">
<a href="stopwords-performance.html">« 停用词与性能</a>
</span>
<span class="next">
<a href="stopwords-phrases.html">停用词与短语查询 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="common-terms"></a>高低频词: 分而治之 (<code class="term">devide and conquer</code>, 分治法) <a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/240_Stopwords/40_Divide_and_conquer.asciidoc">edit</a>
</h2>
</div></div></div>
<p>在查询字符串中的词项可以分为更重要（低频词）和次重要（高频词）这两类。 只与次重要词项匹配的文档很有可能不太相关。实际上，我们想要文档能尽可能多的匹配那些更重要的词项。</p>
<p><code class="literal">match</code> 查询接受一个参数  <code class="literal">cutoff_frequency</code> ，从而可以让它将查询字符串里的词项分为低频和高频两组。低频组（更重要的词项）组成 <code class="literal">bulk</code> 大量查询条件，而高频组（次重要的词项）只会用来评分，而不参与匹配过程。通过对这两组词的区分处理，我们可以在之前慢查询的基础上获得巨大的速度提升。</p>
<p>领域相关的停用词（Domain-Specific Stopwords）</p>
<div class="sidebar">
<div class="titlepage"></div>
<p><code class="literal">cutoff_frequency</code> 配置的好处是，你在 <em>特定领域</em> 使用停用词不受约束。例如，关于电影网站使用的词 <em>movie</em> 、 <em>color</em> 、 <em>black</em> 和 <em>white</em> ，这些词我们往往认为几乎没有任何意义。使用 <code class="literal">stop</code> 词汇单元过滤器，这些特定领域的词必须手动添加到停用词列表中。然而 <code class="literal">cutoff_frequency</code> 会查看索引里词项的具体频率，这些词会被自动归类为 <em>高频词汇</em> 。</p>
</div>
<p>以下面查询为例：</p>
<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">{
  "match": {
    "text": {
      "query": "Quick and the dead",
      "cutoff_frequency": 0.01 <a id="CO172-1"></a><i class="conum" data-value="1"></i>
    }
}</pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO172-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>任何词项出现在文档中超过1%，被认为是高频词。<code class="literal">cutoff_frequency</code> 配置可以指定为一个分数（ <code class="literal">0.01</code> ）或者一个正整数（ <code class="literal">5</code> ）。</p>
</td>
</tr>
</table>
</div>
<p>此查询通过 <code class="literal">cutoff_frequency</code> 配置，将查询条件划分为低频组（ <code class="word">quick</code> , <code class="word">dead</code> ）和高频组（ <code class="word">and</code> , <code class="word">the</code> ）。然后，此查询会被重写为以下的 <code class="literal">bool</code> 查询：</p>
<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">{
  "bool": {
    "must": { <a id="CO173-1"></a><i class="conum" data-value="1"></i>
      "bool": {
        "should": [
          { "term": { "text": "quick" }},
          { "term": { "text": "dead"  }}
        ]
      }
    },
    "should": { <a id="CO173-2"></a><i class="conum" data-value="2"></i>
      "bool": {
        "should": [
          { "term": { "text": "and" }},
          { "term": { "text": "the" }}
        ]
      }
    }
  }
}</pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO173-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>必须匹配至少一个低频／更重要的词项。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO173-2"><i class="conum" data-value="2"></i></a></p>
</td>
<td align="left" valign="top">
<p>高频/次重要性词项是非必须的。</p>
</td>
</tr>
</table>
</div>
<p><code class="literal">must</code> 意味着至少有一个低频词— <code class="word">quick</code> 或者 <code class="word">dead</code> —必须出现在被匹配文档中。所有其他的文档被排除在外。 <code class="literal">should</code> 语句查找高频词 <code class="word">and</code> 和 <code class="word">the</code> ，但也只是在 <code class="literal">must</code> 语句查询的结果集文档中查询。
 <code class="literal">should</code> 语句的唯一的工作就是在对如 <code class="word">Quick _and the_ dead</code> 和 <code class="word">_The_ quick but　dead</code> 语句进行评分时，前者得分比后者高。这种方式可以大大减少需要进行评分计算的文档数量。</p>
<div class="tip admon">
<div class="icon"></div>
<div class="admon_content">
<p>将操作符参数设置成 <code class="literal">and</code> 会要求所有低频词都必须匹配，同时对包含所有高频词的文档给予更高评分。但是，在匹配文档时，并不要求文档必须包含所有高频词。如果希望文档包含所有的低频和高频词，我们应该使用一个 <code class="literal">bool</code> 来替代。正如我们在<a class="xref" href="stopwords-performance.html#stopwords-and" title="and Operator">and 操作符</a>中看到的，它的查询效率已经很高了。</p>
</div>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_控制精度_2"></a>控制精度<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/240_Stopwords/40_Divide_and_conquer.asciidoc">edit</a>
</h3>
</div></div></div>
<p><code class="literal">minimum_should_match</code> 参数可以与 <code class="literal">cutoff_frequency</code> 组合使用，但是此参数仅适用于低频词。如以下查询：</p>
<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">{
  "match": {
    "text": {
      "query": "Quick and the dead",
      "cutoff_frequency": 0.01,
      "minimum_should_match": "75%"
    }
}</pre>
</div>
<p>将被重写为如下所示:</p>
<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">{
  "bool": {
    "must": {
      "bool": {
        "should": [
          { "term": { "text": "quick" }},
          { "term": { "text": "dead"  }}
        ],
        "minimum_should_match": 1 <a id="CO174-1"></a><i class="conum" data-value="1"></i>
      }
    },
    "should": { <a id="CO174-2"></a><i class="conum" data-value="2"></i>
      "bool": {
        "should": [
          { "term": { "text": "and" }},
          { "term": { "text": "the" }}
        ]
      }
    }
  }
}</pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO173-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>因为只有两个词，原来的75%向下取整为 <code class="literal">1</code> ，意思是：必须匹配低频词的两者之一。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO173-2"><i class="conum" data-value="2"></i></a></p>
</td>
<td align="left" valign="top">
<p>高频词是可选的，并且仅用于评分使用。</p>
</td>
</tr>
</table>
</div>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_高频词"></a>高频词 (Only High-Frequency Terms) <a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/240_Stopwords/40_Divide_and_conquer.asciidoc">edit</a>
</h3>
</div></div></div>
<p>当使用 <code class="literal">or</code> 查询高频词条，如对 <code class="word">To be, or not to be</code>  进行查询时性能最差。只是为了返回最匹配的前十个结果就对只是包含这些词的所有文档进行评分是盲目的。我们真正的意图是查询整个词条出现的文档，所以在这种情况下，在不存在低频词的情况下，这个查询需要重写为所有高频词条都必须包含：</p>

<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">{
  "bool": {
    "must": [
      { "term": { "text": "to" }},
      { "term": { "text": "be" }},
      { "term": { "text": "or" }},
      { "term": { "text": "not" }},
      { "term": { "text": "to" }},
      { "term": { "text": "be" }}
    ]
  }
}</pre>
</div>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_对常用词使用更多控制more_control_with_common_terms"></a>对常用词（Common Terms）进行更多控制<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/240_Stopwords/40_Divide_and_conquer.asciidoc">edit</a>
</h3>
</div></div></div>
<p>尽管高频/低频的功能在 <code class="literal">match</code> 查询中是有用的，有时我们还希望能对它有更多的控制，想控制它对高频和低频词分组的行为。　<code class="literal">match</code> 查询针对  <code class="literal">common</code> 词项查询提供了一组功能。</p>
<p>例如，我们可以让所有低频词都必须匹配，而只对那些包括超过 75% 的高频词文档进行评分：</p>
<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">{
  "common": {
    "text": {
      "query":                  "Quick and the dead",
      "cutoff_frequency":       0.01,
      "low_freq_operator":      "and",
      "minimum_should_match": {
        "high_freq":            "75%"
      }
    }
  }
}</pre>
</div>
<p>更多配置项参见　<a href="https://www.elastic.co/guide/en/elasticsearch/reference/5.6/query-dsl-common-terms-query.html" class="ulink" target="_top"><code class="literal">common</code> terms query</a>。</p>
</div>

</div>
<div class="navfooter">
<span class="prev">
<a href="stopwords-performance.html">« 停用词与性能</a>
</span>
<span class="next">
<a href="stopwords-phrases.html">停用词与短语查询 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>